Какие могут быть проблемы в данных? Как вы бы их исправляли?
В данных могут быть ошибки, дубликаты, пропущенные значения.
🔹Ошибки могут быть связаны с человеческим фактором, например, невнимательностью, или вызваны сбоями в работе оборудования, записывающего какие-либо показатели. Чтобы исправить ошибки, нам нужно выяснить, чем они были вызваны. После этого можно будет выбрать верную стратегию.
Распространённым типом ошибок являются неверные значения. Поэтому необходимо проверить, что данные не противоречат своей природе. Например, цена товара не может быть отрицательной.
🔹Дубликаты в данных следует удалять. Найти их и удалить можно, например, с помощью Pandas, методов duplicated и drop_duplicates.
🔹Неверные типы значений могут испортить анализ и дальнейшую работу с данными. Например, некоторый показатель записан в виде строк, хотя нам было бы предпочтительнее работать с ним как с типом float. Нужно привести все типы к требуемым. Даты и время можно перевести в объекты datetime.
🔹Обработка пропущенных значений также требует понимания природы данных. В целом, тут есть несколько основных методов: ▫️удалить объекты с пропусками, ▫️заменить пропуски на среднее значение, медиану или моду, ▫️провести множественную импутацию данных (MICE).
🔹Также стоит провести поиск аномалий (выбросов) в данных. В зависимости от ситуации, аномалии можно отфильтровать, скорректировать или проанализировать отдельно.
Какие могут быть проблемы в данных? Как вы бы их исправляли?
В данных могут быть ошибки, дубликаты, пропущенные значения.
🔹Ошибки могут быть связаны с человеческим фактором, например, невнимательностью, или вызваны сбоями в работе оборудования, записывающего какие-либо показатели. Чтобы исправить ошибки, нам нужно выяснить, чем они были вызваны. После этого можно будет выбрать верную стратегию.
Распространённым типом ошибок являются неверные значения. Поэтому необходимо проверить, что данные не противоречат своей природе. Например, цена товара не может быть отрицательной.
🔹Дубликаты в данных следует удалять. Найти их и удалить можно, например, с помощью Pandas, методов duplicated и drop_duplicates.
🔹Неверные типы значений могут испортить анализ и дальнейшую работу с данными. Например, некоторый показатель записан в виде строк, хотя нам было бы предпочтительнее работать с ним как с типом float. Нужно привести все типы к требуемым. Даты и время можно перевести в объекты datetime.
🔹Обработка пропущенных значений также требует понимания природы данных. В целом, тут есть несколько основных методов: ▫️удалить объекты с пропусками, ▫️заменить пропуски на среднее значение, медиану или моду, ▫️провести множественную импутацию данных (MICE).
🔹Также стоит провести поиск аномалий (выбросов) в данных. В зависимости от ситуации, аномалии можно отфильтровать, скорректировать или проанализировать отдельно.
#машинное_обучение #предобработка_данных
BY Библиотека собеса по Data Science | вопросы с собеседований
Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283
I have no inside knowledge of a potential stock listing of the popular anti-Whatsapp messaging app, Telegram. But I know this much, judging by most people I talk to, especially crypto investors, if Telegram ever went public, people would gobble it up. I know I would. I’m waiting for it. So is Sergei Sergienko, who claims he owns $800,000 of Telegram’s pre-initial coin offering (ICO) tokens. “If Telegram does a SPAC IPO, there would be demand for this issue. It would probably outstrip the interest we saw during the ICO. Why? Because as of right now Telegram looks like a liberal application that can accept anyone - right after WhatsApp and others have turn on the censorship,” he says.
Should I buy bitcoin?
“To the extent it is used I fear it’s often for illicit finance. It’s an extremely inefficient way of conducting transactions, and the amount of energy that’s consumed in processing those transactions is staggering,” the former Fed chairwoman said. Yellen’s comments have been cited as a reason for bitcoin’s recent losses. However, Yellen’s assessment of bitcoin as a inefficient medium of exchange is an important point and one that has already been raised in the past by bitcoin bulls. Using a volatile asset in exchange for goods and services makes little sense if the asset can tumble 10% in a day, or surge 80% over the course of a two months as bitcoin has done in 2021, critics argue. To put a finer point on it, over the past 12 months bitcoin has registered 8 corrections, defined as a decline from a recent peak of at least 10% but not more than 20%, and two bear markets, which are defined as falls of 20% or more, according to Dow Jones Market Data.
Библиотека собеса по Data Science | вопросы с собеседований from hk